数据平台建设整体思路阐述和总结
The following article is from 数据僧 Author 数据僧
数据的每一次的输出,永远不会有bug,只有对和错。
数据人永远是在怀疑和被怀疑,孤独和寂寞中完成。每次的输出可能只有一个数字,概率,猜测。。。但是其背后可能是一堆人无数个夜晚不断数据处理,验证,分析,最终剩下的东西(精华)。
数据人不能浮躁,不能功利,必须站在中立立场,客观分析,客观给出结论。
必须要有韧性。特别在创业公司,数据体系基本不完整,各线对数据的认知有高有低。数据收益不是那么显而易见,单单数据仓库建设周期就需要3-5年,坚持和持续的建设显得尤为重要.
数据处理流程
埋点
优点:和业务能够紧密结合,支持灵活多变的业务需求。
缺点:有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本。
爬虫(没做过)
优点:可以抓取应用外数据,丰富数据类型
缺点:有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景
采购(不做详细描述)
优点:获取数据容易
缺点:注意法律红线;需要谨慎考虑数据应用场景
数据库同步
优点:和业务数据高度一致;和业务需求天然具有关联性。
缺点:对业务数据库有性能消耗,需要考虑数据库性能的极限。
数据收集方案选择顺序:
数据库同步>埋点>爬虫>采购
方法一:根据DB log 日志。例如Sqlserver 开启CTLog,PG 开启WLlog
方法二:Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步
方法三:依赖消息队列开发数据同步工具。
注意:
1,要考虑数据同步的时候 对业务数据库的压力。尽量使用从库,对没有从库的业务一定要考虑让步策略,异常策略,一切以业务正常运行为前提。
2,充分考虑数据安全,在大数据安全不够健全的情况下,一定要对于敏感业务的数据,可以通过脱敏,混淆,隔离等方式处理。
埋点-前端埋点
场景:主要用于用户行为分析,UI分析,优化用户体验场景,非精准类的数据分析,和后端数据做交叉验证
埋点-服务端埋点
场景:对数据数据库同步方案的补充,大多用做BI统计,对数据精准度有一定要求的数据分析,和前端数据做交叉验证
前端埋点有那些特点
1,埋点变更受发版限制
2,前端数据上报需要在wifi条件下上报数据,数据会有延迟
3,对Key做特殊处理,前端埋点可读性差,需要做好字典
4,前端埋点位置需要注意默认加载位置的埋点,否则会造成埋点数据虚高
5,对前端代码会有入侵
服务端数据埋点有哪些特点
1,埋点变更灵活
2,数据准确度介于数据库同步和前端埋点之间
3,埋点时机,需要在数据写入数据库后
4,对服务端代码会有入侵
埋点通用设计:公共埋点+业务埋点
埋点格式:JSON结构。因为json具有较好的兼容性,大多数平台都能够比较容易解析。数据传输高效。埋点原则:
1.一旦埋点上线,并且被用于数据分析,尽量不要做删除操作,多做追加操作。
2.埋点设计过程中,不可闭门造车,一定要和充分了解业务,充分沟通,自上而下,从全局到局部做设计。
检查埋点是否漏报
埋点字段的类型和上报的数据类型是否一致非空字段是否有控制
如果业务理解模糊,需求交付时间不充足,可以收集,具体使用的时候在做兼容或者其它处理。
管道内存和磁盘设置,数据不易丢失。但是在实际工作中出现过Flume进程不工作的情况,需要健全对Flume的监控,防止数据丢失
数据按照最细粒度组织
基于业务过程推荐扁平的大宽表设计,易用,效率高,消耗的存储可以忽略
需要确定各层,各表的业务边界,尽量做到表复用,防止表膨胀或者爆炸,造成无法过多的维护负担
事实:为了量化,事实数据通常用于计算;维度:为了分组和过滤,用于多维度分析;分区:为了快速定位需要的数据
缓慢变化维:为了历史留痕,分析的主体历史状态可以查询数据仓库需要数据统一,形同含义的业务的命名不要重复
如何制作业务矩阵,如何确定事实表,如何确定维度,如何处理缓慢变化维,如何处理分区,事实和维度如何划分 不做细节描述
是未来走过BI阶段 进行数据挖掘、机器学习、神经网络 的基石头,在数据仓库没有稳定之前 数据挖掘等更上层的数据相关的研究会陷入被动。
下面数据分析开展的顺序,可以同时进行,但是数据建设的不同阶段重点会不同,整体发展过程如下:
数据分析发展过程:
1,BI报表:常规的市场,运营分析;抽取指标;经验获取;数据感知能力的培养;数据是二维,更多的是定量分析。
2,多维数据分析:数据是三维,多个三维的数据 组成一个数据立方体,最终构成一个完整数据分析矩阵;这里会衍生出更多的指标,和特征;更多的也是定量分析
3,数据挖掘:当数据分析更加复杂,无法通过经验进行合理的分类,无法根据经验提取更多的特征,就需要通过算法模型来处理;这部分还是需要一些经验,人工干预还是比较多一些。定量和定性都会有。
4,机器学习:脱离人工,通过反复训练的出结论,抽取特征。这里更多的是定性分析。
5,神经网络、AI 不懂。
注意:
这里面的任何一个阶段,数据可视化和数据信息化一致都贯穿始终。如何用正确合适的图标展示数据是数据可视化重点考虑的内容。如何提取数据的重点内容,传递一个完整故事是数据信息化要考虑的内容。
问题一:我们的产品被什么样的用户使用
问题二:我们的用户都是在怎么使用产品这两个问题无法分割,关键看每个分析的需求和场景
1,经验分析:确定问题和论点,通过经验来定
2,数据准备:数据收集,准备数据,确认数据是否完整
数据处理:统一数据格式,去除重复,增补,数据转换,数据分组
3,数据分析及展现:确定数据分析方法,以及合适的图标
专业报告:背景,目的,分析思路,数据展示,结论和建议
4,跟踪、反馈:根据需求,确定是否需要跟踪和收取反馈,持续迭代优化分析报告。
目标:最终的指标体系指标间能够交叉验证,粒度统一,数据一致,数据可解释
1,明确分析主体
2,确定分析业务过程,找到核心环节,每个环节的维度
3,确定分析粒度
4,明确收益矩阵,确定优先级
2B-用户生命周期管理
2B-客户生命周期价值曲线
客户生命周期价值曲线
2C-用户生命周期
2C-用户生命周期
2C用户生命周期价值曲线,没有思考过。
独立的数据产品
大多提供的数据数据分析解决方案。方便用户进行数据分析,更加快速获取数据认知,通过数据支撑自身业务发展。
例如:神策,诸葛,growthingIO 都是抽取通用的分析场景,然后产品化。
最终的数据变现只能通过企业自身去实现。还有咨询类企业 可以直接通过数据变现。
-End-
▼ 福利时刻 ▼
01. 公众号后台回复:「快乐」,可参与十一假期33本技术类书籍免费+包邮活动;
02. 公众号后台回复:「加群」,可加入数仓、BI、Python 或 资料分享群。
Q: 关于数据仓库,你还想了解什么?
欢迎留言区与大家分享
觉得不错,请把这篇文章分享给你的朋友哦
投稿请联系小助手:iom1128『紫霞仙子』
更多精彩,请在后台点击“紫霞秘籍”查看
!关注不迷路~ 各种福利、资源定期分享!
↓↓↓回馈读者,十一假期 送书福利活动 正在进行中ing...(点击跳转)
十一快乐,回馈读者!自费送33本书!包邮!先到先得!就是这么任性